Video super-resolution (VSR) aiming to reconstruct a high-resolution (HR) video from its low-resolution (LR) counterpart has made tremendous progress in recent years. However, it remains challenging to deploy existing VSR methods to real-world data with complex degradations. On the one hand, there are few well-aligned real-world VSR datasets, especially with large super-resolution scale factors, which limits the development of real-world VSR tasks. On the other hand, alignment algorithms in existing VSR methods perform poorly for real-world videos, leading to unsatisfactory results. As an attempt to address the aforementioned issues, we build a real-world 4 VSR dataset, namely MVSR4$\times$, where low- and high-resolution videos are captured with different focal length lenses of a smartphone, respectively. Moreover, we propose an effective alignment method for real-world VSR, namely EAVSR. EAVSR takes the proposed multi-layer adaptive spatial transform network (MultiAdaSTN) to refine the offsets provided by the pre-trained optical flow estimation network. Experimental results on RealVSR and MVSR4$\times$ datasets show the effectiveness and practicality of our method, and we achieve state-of-the-art performance in real-world VSR task. The dataset and code will be publicly available.
translated by 谷歌翻译
Variational Graph Autoencoders (VGAEs) are powerful models for unsupervised learning of node representations from graph data. In this work, we systematically analyze modeling node attributes in VGAEs and show that attribute decoding is important for node representation learning. We further propose a new learning model, interpretable NOde Representation with Attribute Decoding (NORAD). The model encodes node representations in an interpretable approach: node representations capture community structures in the graph and the relationship between communities and node attributes. We further propose a rectifying procedure to refine node representations of isolated notes, improving the quality of these nodes' representations. Our empirical results demonstrate the advantage of the proposed model when learning graph data in an interpretable approach.
translated by 谷歌翻译
从单眼RGB图像中重建3D手网络,由于其在AR/VR领域的巨大潜在应用,引起了人们的注意力越来越多。大多数最先进的方法试图以匿名方式解决此任务。具体而言,即使在连续录制会话中用户没有变化的实际应用程序中实际上可用,因此忽略了该主题的身份。在本文中,我们提出了一个身份感知的手网格估计模型,该模型可以结合由受试者的内在形状参数表示的身份信息。我们通过将提出的身份感知模型与匿名对待主题的基线进行比较来证明身份信息的重要性。此外,为了处理未见测试对象的用例,我们提出了一条新型的个性化管道来校准固有的形状参数,仅使用该受试者的少数未标记的RGB图像。在两个大型公共数据集上进行的实验验证了我们提出的方法的最先进性能。
translated by 谷歌翻译
最近,视觉变压器及其变体在人类和多视图人类姿势估计中均起着越来越重要的作用。将图像补丁视为令牌,变形金刚可以对整个图像中的全局依赖项进行建模或其他视图中的图像。但是,全球关注在计算上是昂贵的。结果,很难将这些基于变压器的方法扩展到高分辨率特征和许多视图。在本文中,我们提出了代币螺旋的姿势变压器(PPT)进行2D人姿势估计,该姿势估计可以找到粗糙的人掩模,并且只能在选定的令牌内进行自我注意。此外,我们将PPT扩展到多视图人类姿势估计。我们建立在PPT的基础上,提出了一种新的跨视图融合策略,称为人类区域融合,该策略将所有人类前景像素视为相应的候选者。可可和MPII的实验结果表明,我们的PPT可以在减少计算的同时匹配以前的姿势变压器方法的准确性。此外,对人类360万和滑雪姿势的实验表明,我们的多视图PPT可以有效地从多个视图中融合线索并获得新的最新结果。
translated by 谷歌翻译
镜像检测旨在识别给定输入图像中的镜像区域。现有作品主要集中于整合语义特征和结构特征,以挖掘镜像和非摩尔区域之间的相似性和不连续性,或者引入深度信息以帮助分析镜像的存在。在这项工作中,我们观察到一个真实的对象通常与镜子中的相应反射形成松散的对称关系,这有助于区分镜子和真实对象。基于此观察结果,我们提出了一个基于双路对称性变压器的镜像检测网络(SATNET),其中包括两个新型模块:对称性吸引注意的注意模块(SAAM)以及对比度和融合解码器模块(CFDM)。具体而言,我们首先引入了变压器主干,以模拟图像中的全局信息聚合,并在两条路径中提取多尺度特征。然后,我们将高级双路径特征喂给Saams以捕获对称关系。最后,我们融合了双路径功能,并使用CFDM逐渐完善我们的预测图,以获得最终的镜面掩码。实验结果表明,在所有可用的镜像检测数据集上,Satnet优于RGB和RGB-D镜检测方法。
translated by 谷歌翻译
时间序列数据的积累和标签的不存在使时间序列异常检测(AD)是自我监督的深度学习任务。基于单拟合的方法只能触及整个正态性的某些方面,不足以检测各种异常。其中,AD采用的对比度学习方法总是选择正常的负面对,这是反对AD任务的目的。现有的基于多促进的方法通常是两阶段的,首先应用了训练过程,其目标可能与AD不同,因此性能受到预训练的表示的限制。本文提出了一种深层对比的单级异常检测方法(COCA),该方法结合了对比度学习和一级分类的正态性假设。关键思想是将表示和重建表示形式视为无阴性对比度学习的积极对,我们将其命名为序列对比。然后,我们应用了由不变性和方差项组成的对比度损失函数,前者同时优化了这两个假设的损失,后者则防止了超晶体崩溃。在四个现实世界中的时间序列数据集上进行的广泛实验表明,所提出的方法的卓越性能达到了最新。该代码可在https://github.com/ruiking04/coca上公开获得。
translated by 谷歌翻译
自动开放域对话评估是对话系统的关键组成部分。最近,基于学习的评估指标在开放域对话评估中取得了最先进的表现。但是,这些仅关注一些素质的指标很难全面评估对话。此外,这些指标缺乏有效的分数组成方法,无法获得各种评估质量。为了解决上述问题,我们提出了基于相关性重新缩放(MME-CR)的多项式评估,以评估开放域对话。首先,我们建立了一个评估度量,该评估度量由5组平行的子对象组成,称为多金属评估(MME),以全面评估对话的质量。此外,我们提出了一种称为相关重新缩放(CRS)的新型分数组成方法,以模拟子计量与多样性之间的关系。我们的方法MME-CRS在DSTC10 TRACK5 SubTask1自动开放域对话评估挑战的最终测试数据中排名第一,这证明了我们提出的方法的有效性。
translated by 谷歌翻译
背景:患者的分类是控制2019年冠状病毒疾病的大流行病(Covid-19),特别是在临床资源极为有限时在大流行的峰值期间。目的:开发一种用合成胸CT自动筛分和量化肺和肺炎病变的方法,并评估Covid-19患者的疾病严重程度。材料和方法:在本研究中,我们通过可用的数据集(来自“肺结核分析2016年”的285个数据集“来生成数据增强以产生合成胸CT图像。合成图像和掩模用于训练2D U-Net神经网络并在203个Covid-19数据集上测试,以产生肺和病变分段。疾病严重程度评分(DL:损伤负荷; DS:损伤得分)是基于分段计算的。使用Pearson方法评估DL / DS和临床实验室测试之间的相关性。 p值<0.05被认为是统计显着性。结果:将自动肺和病变分段与手动注释进行比较。对于肺部分割,骰子相似系数,Jaccard指数和平均表面距离的中值分别为98.56%,97.15%和0.49 mm。病变分割的相同度量分别为76.95%,62.54%和2.36毫米。在DL / DS和百分比淋巴细胞检测中发现显着(P << 0.05)相关性,R值分别为-0.561和-0.501。结论:基于胸部射线照相和数据增强的AI系统对Covid-19患者的肺癌和病变进行了分段。成像结果与临床实验室测试之间的相关性表明该系统的价值作为评估Covid-19疾病严重程度的潜在工具。
translated by 谷歌翻译
Covid-19已成为全球大流行,仍然对公众产生严重的健康风险。 CT扫描中肺炎病变的准确和有效的细分对于治疗决策至关重要。我们提出了一种使用循环一致生成的对冲网络(循环GaN)的新型无监督方法,其自动化和加速病变描绘过程。工作流程包括肺体积分割,“合成”健康肺一代,感染和健康的图像减法,以及二元病变面膜创造。首先使用预先训练的U-Net划定肺体积,并作为后续网络的输入。开发了循环GaN,以产生来自受感染的肺图像的合成的“健康”肺CT图像。之后,通过从“受感染的”肺CT图像中减去合成的“健康”肺CT图像来提取肺炎病变。然后将中值过滤器和K-Means聚类应用于轮廓的病变。在两个公共数据集(冠状遗传酶和Radiopedia)上验证了自动分割方法。骰子系数分别达到0.748和0.730,用于冠状遗传酶和RadioPedia数据集。同时,对冠纳卡酶数据集的病变分割性的精度和灵敏度为0.813和0.735,以及用于Radiopedia数据集的0.773和0.726。性能与现有的监督分割网络和以前无监督的特性相当。提出的无监督分割方法在自动Covid-19病变描绘中实现了高精度和效率。分割结果可以作为进一步手动修改的基线和病变诊断的质量保证工具。此外,由于其无人自化的性质,结果不受医师经验的影响,否则对监督方法至关重要。
translated by 谷歌翻译
估计每个视图中的2D人类姿势通常是校准多视图3D姿势估计的第一步。但是,2D姿势探测器的性能遭受挑战性的情况,例如闭塞和斜视角。为了解决这些挑战,以前的作品从eMipolar几何中的不同视图之间导出点对点对应关系,并利用对应关系来合并预测热插拔或特征表示。除了后预测合并/校准之外,我们引入了用于多视图3D姿势估计的变压器框架,其目的地通过将来自不同视图的信息集成信息来直接改善单个2D预测器。灵感来自先前的多模态变压器,我们设计一个统一的变压器体系结构,命名为输送,从当前视图和邻近视图中保险。此外,我们提出了eMipolar字段的概念来将3D位置信息编码到变压器模型中。由Epipolar字段引导的3D位置编码提供了一种有效的方式来编码不同视图的像素之间的对应关系。人类3.6M和滑雪姿势的实验表明,与其他融合方法相比,我们的方法更有效,并且具有一致的改进。具体而言,我们在256 x 256分辨率上只有5米参数达到人类3.6米的25.8毫米MPJPE。
translated by 谷歌翻译